ФОРМИРОВАНИЕ РЕЗУЛЬТАТОВ ПОВТОРНЫХ ИСПЫТАНИЙ
Сравнение результатов двух повторных испыта
При проведении повторных испытаний однотипной продукции имеет место проблема воспроизводимости, в связи с чем появляется необходимость расчета, нормирования и оценки расхождения результатов таких испытаний [31]. При этом под воспроизводимостью результатов понимают такое их свойство, когда каждый повторный результат статистически незначимо отличается от предыдущего (термин «значимость» — по ГОСТ 15895-77). Одной из задач этой проблемы является выбор и стандартизация показателей воспроизводимости результатов повторных испытаний.
В [42] обосновано предположение об индивидуальности распределений результатов повторных испытаний. Действительно, так как в зависимости от вида повторных испытаний, т. е. от того, где и в каких условиях они проводятся (в одной и той же лаборатории, в одинаковых условиях, одними и теми же методами, средствами и испытателями или в различных лабораториях, в различных условиях, различными средствами и методами), результаты этих повторных испытаний могут иметь различное распределение или при одинаковых видах распределения — существенно различные параметры. А это означает статистическую неоднородность получаемых при испытаниях результатов [84]. Поэтому оценка воспроизводимости должна сводиться к известной в статистике задаче проверки гипотезы о тождественности законов распределений — гипотезы однородности результатов, а показатели воспроизводимости целесообразно искать среди мер близости законов распределений этих результатов (так называемых критериев однородности) [41].
Рассмотрим этот вопрос на основе анализа применяемых на практике параметрических и непараметрических критериев однородности.
Параметрические критерии требуют большего количества априорной информации, в частности необходимо знать вид сравниваемых законов распределения. Задача проверки гипотезы однородности сводится к задаче проверки равенства параметров этих распределений.
Для нормального распределения все применяемые критерии можно свести к четырем случаям (табл. 12.1). Первые три из них относятся
|
|||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||
к проверке гипотезы о равенстве математических ожиданий. В первом случае предполагается, что дисперсии Oj и исходных совокупностей сравниваемых выборок объемом п1 и л2 известны, во втором — дисперсии равны, но не известны, в третьем — дисперсии не равны и не известны. Четвертый случай предусматривает сравнение дисперсий.
Для каждого случая в табл. 12.1 приведены рабочие формулы для определения статистики критерия и решающих правил, где: хх и х2 — выборочные средние повторных испытаний; S? и Si — выборочные дисперсии; М{ и М2 — сравниваемые математические ожидания; Uy, t и R — квантили стандартных распределений нормального, Стьюден — та и F — распределения Фишера при доверительной вероятности у [41, 74].
Поскольку все приведенные выше статистики I—III основаны на сравнении выборочных средних, имеющих в силу центральной предельной теоремы асимптотически нормальное распределение для любого распределения исходных генеральных совокупностей, то эти статистики оказываются мало чувствительными к отклонениям от нормальности. Поэтому они могут применяться для оценки воспроизводимости на уровне средних для широкого класса одномодальных распределений.
В отличие от указанных выше статистик статистика для сравнения дисперсий (IV) чувствительна к отклонениям от нормальности. Однако и она имеет асимптотически нормальное распределение, хотя и отличное от того, которое имеет место при нормальном распределении.
В том случае, когда распределение исходной совокупности известно, представляется возможным использование приведенной статистики при измененном числе степеней свободы п{ и равных [38]
где щ — четвертый момент распределения. Для гІ2 формула аналогична.
Анализируя рассмотренные выше статистики, нетрудно заметить, что в качестве показателей воспроизводимости целесообразно использовать:
• нормированный модуль разности выборочных средних:
Ах = хх — х2К{ (12.1)
• нормированное отношение выборочных дисперсий
= S? {S]K2)"‘, (12.2)
и (или) уровень значимости а, где Кх и К2 — коэффициенты (см. табл. 12.1).
Первые два показателя (Дх и s*) имеют ясный физический смысл и не требуют пояснений. Возможность применения третьего показателя для оценки воспроизводимости объясняется следующим.
Уменьшая уровень а в решающих правилах (см. табл. 12.1), всегда можно добиться принятия гипотезы однородности, причем большим расхождениям между х{ и х2 или S* и S2 (плохая воспроизводимость) будут соответствовать малые уровни значимости. При этом минимальная величина уровня значимости, при котором для определенных значений Х, х2, Si, S2 будет выполняться условие однородности, может быть принята в качестве критического значения показателя воспроизводимости. Соответствующие этому значению расхождения результатов испытаний называют критическими. В этом случае с вероятностью а результаты испытаний относятся к одному закону распределения.
Непараметрические критерии (расстояния, перестановок, ранговые) не требуют знания законов распределения исходных совокупностей, однако они более трудоемки в вычислениях и индивидуальны по отношению к различным видам неоднородности. Кроме того, они требуют таблиц специальных распределений, которые имеются лишь в узкоспециальных изданиях и для практических целей недостаточно полны. Поэтому из всего многообразия непараметрических критериев рассмотрим лишь те, статистики которых вычисляются достаточно просто и (или) допускают нормальную аппроксимацию. Основные характеристики этих критериев сведены в табл. 12.2, где m-Jn — частота попадания исследуемой величины в интервальный вариационный ряд; Pi — теоретическое значение вероятности попадания случайной величины в этот интервал; г — число интервалов (г > 8); и — объем выборки.
Критерии расстояния (Смирнова, % ) используют в качестве рабочих статистик различные меры расстояния между сравниваемыми функциями распределения и при достаточном объеме выборки (п > 50) позволяют обнаружить практически любое отличие между ними [77]. Критерий Смирнова основан на сравнении функций рас-
пределения Flni (Х[ ), F2„2 (х2 ) двух выборок {*„}, {х2,} объемом л, и п2 соответственно. При этом большой объем вычислений при исполь-
Непараметрические критерии однородности
|
зовании данного критерия связан с необходимостью построения вариационных рядов и пропорционален квадрату объема выборки. При п2 -> °° критерий Смирнова трансформируется в критерий Колмогорова, требующий знания так называемого эталонного распределения [77]. Критерий также требует знания эталонного распределения, однако он не нуждается в построении упорядоченных вариационных рядов, поэтому более экономичен в вычислительном отношении. Кроме того, квантиль X2 — распределения допускает нормальную аппроксимацию [77] и позволяет проверить гипотезу однородности, когда эталонное распределение известно с точностью до к параметров, оцениваемых по той же выборке. В этом случае число степеней свободы выбирается равным г-к-1, а неизвестные параметры оцениваются методом «минимум X ».
Критерии перестановок (знаков, серий, инверсий) используют тот факт, что при выполнении гипотезы однородности все перестановки упорядоченных значений смеси случайных величин из двух выборок равновероятны. При применении этих критериев последовательности сравниваемых результатов испытаний {*ц}, {*2, } объединяют в одну последовательность {*,-}.
Статистикой критерия знаков является число случаев, когда
гДе *о — некоторая заданная величина (например, медиана). Эта статистика при фиксированном объеме объединенной выборки п имеет биномиальное распределение, а задача проверки гипотезы однородности сводится к задаче проверки гипотезы о значении параметра биномиального распределения = 0,5. Статистикой критерия серий является общее число серий г в объединенной упорядоченной в порядке возрастания последовательности, т. е. число последовательных данных из первой и второй выборок [94].
Статистикой критерия инверсий является общее число инверсий А в объединенной неупорядоченной последовательности, т. е. число случаев, когда последующий член статистического ряда меньше предыдущих членов этого ряда. Задача проверки гипотезы однородности в этом случае так же, как и для критериев знаков, сводится к задаче проверки гипотезы о параметре биномиального распределения р = 0,5 [37]. При необходимости сокращения вычислительных затрат используется также упрощенный критерий инверсий, когда последовательный член ряда сравнивается не со всеми предыдущими членами, а только с соседним [37].
Ранговые критерии (Сиджела-Тьюки, Манна-Уитни, Уилкинсона) применяются в тех случаях, когда удобно использовать не сами результаты испытаний, а их ранги при расположении данных в опре
деленном порядке. При применении этих критериев последовательности сравниваемых данных {*j}, {х2} объединяют в одну упорядоченную в порядке возрастания последовательность. Статистикой критерия Сиджела-Тьюки является сумма рангов для выборки меньшего объема причем ранг 1 приписывается наименьшему значению, ранг 2 — наибольшему, ранг 3 — предыдущему наибольшему и т. д. Статистикой критерия Манна-Уитни является сумма рангов для одной из сравниваемых выборок при расположении объединенной последовательности в порядке возрастания [93]. Критерий Уилкинсона является частным случаем критерия Манна-Уитни при пх = и2 [93].
Критерии знаков, инверсий и Манна-Уитни позволяют обнаружить монотонные изменения в функциях распределения. Критерий серий позволяет обнаружить колебательный тренд, критерий Сидже — ла-Тьюки используется для проверки воспроизводимости по дисперсиям. Ранговые критерии и критерии перестановок можно применять даже при малых выборках (п < 10), при п £ 10 все они допускают нормальную аппроксимацию.
Перечисленные непараметрические критерии требуют наличия таблиц специальных распределений достаточной для практики полноты, а также сравнительных характеристик по мощности и эффективности критериев, позволяющих произвести рациональный выбор того или иного критерия.
В отечественной и зарубежной литературе вопросы мощности и эффективности непараметрических критериев освещены недостаточно полно и сводятся в основном к сравнению эффективности этих критериев с соответствующими параметрическими критериями, используемыми для нормального распределения. Ниже приведены значения асимптотической относительной эффективности (АОЭ) ряда непараметрических критериев для нормального распределения:
Критерий АОЭ
Знаков………………………………………………………………………. 0,63
Инверсий………….
Манна—Уитни … Сиджела—Тьюки
Однако АОЭ, например, критерия Манна-Уитни для у-распре — деления равна 3, для логистического распределения — 1,1, для прямоугольного распределения — 1 и для любого распределения не менее 0,864.
Предлагаемый подход заключается в замене непараметрического критерия эквивалентным параметрическим, не требующим предварительного предположения о нормальности, и последующей нормаль
ной аппроксимации этого критерия с целью аналитического определения его мощности и эффективности.
Для рассмотренных выше критериев эквивалентный параметрический критерий может быть построен с использованием биномиального распределения с одним и тем же значением его параметра. Проиллюстрируем предлагаемый подход на примере наиболее простого критерия знаков.
Статистикой критерия знаков является число случаев т, когда выборочное значение оказывается больше некоторой фиксированной величины. В качестве этой величины чаще всего используют выборочную медиану. Тогда для объема выборки п статистика критерия имеет биномиальное распределение, а задача проверки гипотезы однородности сводится к задаче проверки гипотезы о заданном значении параметра биномиального распределения р = 0,5.
Используя нормальную аппроксимацию с поправкой на непрерывность, получим решающее правило для принятия гипотезы однородности в виде неравенства
а/2’
где U^_aj2 — квантиль стандартного нормального распределения уровня
значимости а/2. Мощность критерия в этом случае может быть записана в аналитическом виде:
т[^-0,5)-Уа/2/2| №,-0,5)+ ^,/2]
1 JP(P ~ 1) J 1 УІРІР" 1) J
Как видно из приведенного выражения, мощность критерия является функцией трех аргументов: размера критерия а, «расстояния» между проверяемой и альтернативной гипотезами и объема выборки п. Если бы удалось зафиксировать «расстояние» между проверяемой и альтернативной гипотезами для ряда критериев, то для сравнения мощности и относительной эффективности этих критериев заданного размера достаточно было бы сопоставить необходимые объемы выборок.
Анализ перечисленных выше критериев позволяет произвести такую фиксацию «расстояния» между проверяемой и альтернативной гипотезами. Так, например, статистикой критерия инверсий является сумма числа инверсий А членов неупорядоченного статистического ряда, составленного из ординат случайного процесса:
Л = Х X U(xi, Xj),
/=1 j=i+1
Эта величина также имеет биномиальное распределение, не зависящее от характера исходного распределения, со средним значением и дисперсией:
M[A = Np; D[A] = Np(l-p),
где р — вероятность появления инверсий при единичном наблюдении; N = п(п-1)/2. Нулевой гипотезе однородности, как и для критерия знаков, соответствует значение параметра биномиального распределения р = 0,5.
Следовательно, для сравнения мощности и относительной эффективности этих критериев достаточно сравнить эффективные числа измерений.
В задачах оперативной обработки измерительной информации часто используют упрощенный критерий инверсий, когда каждое вновь поступившее измерение сравнивается не со всеми предыдущими, а только с соседними. Эффективное число измерений для этого критерия N = п -1. Аналогичные рассуждения можно провести относительно критериев Манна-Уитни и его частного случая — критерия Уилкинсона, а также критерия Сиджела-Тьюки. Статистиками этих критериев являются суммы рангов выборок меньшего объема при объединении двух сравниваемых выборок в порядке возрастания их элементов. Эти статистики имеют одно и тоже распределение, хотя ранжирование при использовании критериев Манна-Уитни (Уилкинсона) и критериев Сиджела-Т ьюки различно.
Ниже приведены формулы для расчета эффективного числа измерений N в случае использования различных критериев при одном и том же объеме выборки.
1 при Xj > Xj О при X; 2 X, 4 I * |
Критерий
Знаков ………………………..
Инверсий…………………….
Инверсий упрощенный
Уилкинсона ………………..
Сиджела—Тьюки………..
Итак, на основе предложенного подхода можно рекомендовать критерий инверсий, обеспечивающий заданную мощность при наименьшем объеме выборки.
Анализ непараметрических критериев однородности показывает, что сами статистики этих критериев не позволяют сформулировать
удобные показатели воспроизводимости, так как не имеют физического смысла. Наиболее рациональным и общим показателем воспроизводимости в данном случае может служить уровень значимости.
Таким образом, применение методов математической статистики при проведении испытаний продукции позволяет одновременно с проверкой однородности результатов повторных испытаний на основе использования известных статистических критериев проводить оценку воспроизводимости этих результатов. В качестве показателей воспроизводимости удобно использовать: нормированный модуль разности выборочных средних (12.1), называемый интервалом воспроизводимости’, нормированное отношение выборочных дисперсий (12.2), называемое коэффициентом разброса воспроизводимости и (или) уровнем значимости (12.3). При этом в случае отсутствия априорной информации о виде и параметрах законов распределения результатов испытаний для оценки воспроизводимости желательно использовать уровень значимости. Результаты повторных испытаний целесообразно считать воспроизводимыми, если они статистически однородны при выбранном значении уровня значимости.
При появлении информации о виде и (или) параметрах законов распределения результатов, если уровень значимости 0,05<а<0,5, целесообразно дополнительно использовать интервал воспроизводимости или (и) коэффициент разброса воспроизводимости. Такая двухэтапная процедура оценки воспроизводимости потребует небольших дополнительных расчетов.